1998年3月3日 堀川 哲朗 作成
◎はじめに
東アジアの漢字圏の国々では、起源を同じくする、共通性の高い漢字体系を使っているにもかかわらず、それらの漢字に対して国家ごとに違った漢字コードを割り当てているため、相互の漢字を使ったコミュニケーションが著しく阻害されているという現状がある。UCCCは、この厄介な現状に鑑み、それらの漢字コードを合理的に包括する新しいコード体系を確立し、もって漢字圏のコミュニケーションの飛躍的効率化を図ろうとするものである。さらに、将来的には、その他のアジアの文字(言語)を包括し、アジア全体で共通して活用できるコード体系(Universal
Asian Character Code =UACC) へと発展する余地を有している。
◎Universal Chinese Character Code (UCCC) の基本仕様
1. 8bitを1バイト(=1オクテット)とする。 (7bit文字体系ではない)
2. 8bit(1バイト)文字と16bit(2バイト)文字の混在を許すコード体系である。
3. ASCII文字(7bit文字)の頭に1bitを追加し、その頭のbitを0とする文字をUCCCにおける1バイト文字と定義する。コード配列は先頭の1bit=0を除き、ASCII文字に準拠する。
4. 半角カタカナは使用しない。
5. 1バイトのうち、頭の1bitが1のものを、2バイト文字の1バイト目と判断する。
6. したがって、UCCCにおける2バイト文字の総数は、2の7剰×2の8剰=32,768字である。(全部で128区。各区は16×16=256文字で構成される)
7. この32,768文字に、現在東アジアで使われている全ての電子文字(漢字が中心)を割り当てる。具体的には次のようになる。
・第0部:記号や数字、西洋文字等を配置する。
・第1部:繁體字〜『康煕字典』の配列に準拠し、まず部首順、同じ部首内では画数順に並べる。(異体字を含む)
・第2部:簡体字〜現在中国で使われている電子文字(具体的にはGBコード)のうち、第1部と重複するものを除き、『新華字典』の配列に準拠し、まず部首順、同じ部首内では画数順に並べる。
・第3部:日本の漢字及びかな〜現在日本で使われている電子文字(具体的にはJISコード)のうち、第1・2部と重複するものを除き、『康煕字典』の配列に準拠し、まず部首順、同じ部首内では画数順に並べる。
・第4部:韓国の漢字及びハングル〜現在韓国で使われている電子文字(具体的にはKSコード)のうち、第1・2・3部と重複するものを除き、KSコードの配列に準拠して並べる。(事実上ほとんどがハングルになる)
・第5部以降:必要に応じてその他のアジアの文字をサポートする。
(UACC = Universal Asian Character Code への拡張)
◎その他のソリューションとの比較
1. Unicode (ISO 10646)
メリット:完全2バイト文字のため、文字領域がUCCCの2倍(=65,536文字)ある。
デメリット:ASCII文字体系を完全に放棄することになる。(これまでのプログラム資産を活用する上で不利。)
(考えようによっては)デメリット:各種の漢字が渾然一体となって配列されているため、漢字の分化の歴史が配列に反映されない。(実用上は問題なし)
UCCCとUnicodeの共通メリット:基本的に現在コンピュータ上で使われている全ての漢字をサポートできる。エスケープシーケンス(後述)を使わないため、動作が安定する。
UCCCとUnicodeの共通デメリット:7bit文字体系ではないので、現在のインターネット上で使用するのが困難なことがある。(インターネット上に7bit文字しかサポート出来ない地点が存在するため。)
2. JIS X 0208-1990 + JIS X 0212-1990 + 拡張エスケープシーケンス
JIS X 0208-1990(いわゆるJIS第1水準・第2水準)と JIS X 0212-1990
(JISコードの拡張版)によって、事実上我々が日常使う漢字が繁体字と日本の漢字でサポートされる。(例えば、土川、口巴、女也、王其、など)
JISコードは7bitの文字体系であり、インターネット上での使用に適している。7bitを1バイトとし、7bit+7bitを2バイトとする1バイト・2バイトの混在する文字体系である。(1バイトの部分はASCII文字に準拠)この1バイト部分と2バイト部分を区別するための符号がエスケープシーケンスであるが、このエスケープシーケンスを拡張することにより、GBコードやKSコードもサポートし(つまり、これらのコードを別々の新しいエスケープシーケンスで区別する)、事実上東アジアの漢字を含めた全ての文字を表現することが出来る。なお、Big5は、7bit文字体系ではないため、サポート出来ない。しかし、その漢字は
JIS X 0208-1990 + JIS X 0212-1990 + GB
でほぼカバーできるはずである。もしカバーできない漢字がある場合は、新たに必要なコードとそれに対応するエスケープシーケンスを設定することができる。
メリット:現在の(7bit文字しか通らない)インターネット上での使用に向く。現行のコード体系をそのまま利用出来る。
デメリット:メーラーによっては、エスケープシーケンスを削除してしまうものがあり、その場合、文字化けをおこす。文字配列が複雑化し、不安定化の恐れがある。繁雑なコード体系の並立が温存される。
◎おわりに
Unicodeは良く研究されたコード体系ではあるが、ASCIIコードが使えなくなる点と、漢字の配列に不満が残る。
JISコードの拡張は、特に7bitの体系を維持したままほぼ全ての漢字が使用でき、旧来のコード体系を維持できるのが魅力で、その点最も現実的な対応かもしれないが、同じ漢字が重複したまま残ってしまうことに割り切れなさを感じるし、JIS主導の統一が受け入れられるかどうか不安が残る。また、JIS
X 0212-1990 が、まだほとんど普及していないのも難点である。
それならば、いっそのこと、新しい発想で両方のメリットを包括した統一漢字コードを設定してしまえというのがUCCCの趣旨である。この趣旨が理解されて、これに対応するフォントが無料で供給されれば、(そして、インターネット上で8bit文字体系が問題なく使えるようになれば)急速な普及も夢ではない。
私自身はこの基本仕様の普及に関して生じる一切の利益を放棄するつもりなので、普及に興味のある関係各位の手でフォントが開発され、供給されることを願うものである。
1998年3月3日 大阪 堀川
哲朗
参考文献:『日本語情報処理』Ken Lunde 著、春遍雀來・鈴木武生
訳、ソフトバンク株式会社、1995年